Transformers have been essential to pretraining success in NLP. Other architectures have been used, but require attention layers to match benchmark accuracy. This work explores pretraining without attention. We test recently developed routing layers based on state-space models (SSM) and model architectures based on multiplicative gating. Used together these modeling choices have a large impact on pretraining accuracy. Empirically the proposed Bidirectional Gated SSM (BiGS) replicates BERT pretraining results without attention and can be extended to long-form pretraining of 4096 tokens without approximation.
translated by 谷歌翻译
Controller design for bipedal walking on dynamic rigid surfaces (DRSes), which are rigid surfaces moving in the inertial frame (e.g., ships and airplanes), remains largely uninvestigated. This paper introduces a hierarchical control approach that achieves stable underactuated bipedal robot walking on a horizontally oscillating DRS. The highest layer of our approach is a real-time motion planner that generates desired global behaviors (i.e., the center of mass trajectories and footstep locations) by stabilizing a reduced-order robot model. One key novelty of this layer is the derivation of the reduced-order model by analytically extending the angular momentum based linear inverted pendulum (ALIP) model from stationary to horizontally moving surfaces. The other novelty is the development of a discrete-time foot-placement controller that exponentially stabilizes the hybrid, linear, time-varying ALIP model. The middle layer of the proposed approach is a walking pattern generator that translates the desired global behaviors into the robot's full-body reference trajectories for all directly actuated degrees of freedom. The lowest layer is an input-output linearizing controller that exponentially tracks those full-body reference trajectories based on the full-order, hybrid, nonlinear robot dynamics. Simulations of planar underactuated bipedal walking on a swaying DRS confirm that the proposed framework ensures the walking stability under different DRS motions and gait types.
translated by 谷歌翻译
现有的步态识别研究以实验室场景为主。由于人们生活在现实世界中,因此野外的步态识别是一个更实用的问题,最近引起了多媒体和计算机视觉社区的关注。在现有基准上获得最先进性能的当前方法在最近提出的野外数据集上的准确性差得多,因为这些方法几乎无法模拟不受约束场景中步态序列的各种时间动力学。因此,本文提出了一种新型的多跳时间开关方法,以实现实际场景中步态模式的有效时间建模。具体来说,我们设计了一个新型的步态识别网络,称为多跳临时交换机网络(MTSGait),以同时学习空间特征和多尺度的时间功能。与现有的3D卷积进行时间建模的方法不同,我们的MTSGAIT通过2D卷积对步态序列的时间动力学进行建模。通过这种方式,与基于3D卷积的模型相比,它以较少的模型参数来达到高效率,并减少了优化的难度。基于2D卷积内核的特定设计,我们的方法可以消除相邻帧之间特征的不对准。此外,提出了一种新的采样策略,即非环保连续采样,以使模型学习更强大的时间特征。最后,与最新方法相比,提出的方法在两个公共步态数据集(即增长和步态3D)上取得了出色的性能。
translated by 谷歌翻译
在前景点(即物体)和室外激光雷达点云中的背景点之间通常存在巨大的失衡。它阻碍了尖端的探测器专注于提供信息的区域,以产生准确的3D对象检测结果。本文提出了一个新的对象检测网络,该对象检测网络通过称为PV-RCNN ++的语义点 - 素voxel特征相互作用。与大多数现有方法不同,PV-RCNN ++探索了语义信息,以增强对象检测的质量。首先,提出了一个语义分割模块,以保留更具歧视性的前景关键。这样的模块将指导我们的PV-RCNN ++在关键区域集成了更多与对象相关的点和体素特征。然后,为了使点和体素有效相互作用,我们利用基于曼哈顿距离的体素查询来快速采样关键点周围的体素特征。与球查询相比,这种体素查询将降低从O(N)到O(K)的时间复杂性。此外,为了避免仅学习本地特征,基于注意力的残留点网模块旨在扩展接收场,以将相邻的素素特征适应到关键点中。 Kitti数据集的广泛实验表明,PV-RCNN ++达到81.60 $ \%$,40.18 $ \%$,68.21 $ \%$ \%$ 3D地图在汽车,行人和骑自行车的人方面,可以在州,甚至可以在州立骑行者,甚至更好地绩效-艺术。
translated by 谷歌翻译
图形神经网络(GNN)是专门为图形数据设计的深度学习模型,它们通常依靠节点特征作为第一层的输入。在没有节点功能的图形上应用这种类型的网络时,可以提取基于图的节点特征(例如,度数数)或在训练网络时学习输入节点表示(即嵌入)。训练节点嵌入的后一个方法更有可能导致性能更好,而与嵌入的参数数量与节点数量线性增长。因此,在处理工业规模的图形数据时,以端到端方式以端到端方式训练输入节点嵌入式(GPU)内存中的GNN是不切实际的。受到为自然语言处理(NLP)任务开发的嵌入压缩方法的启发,我们开发了一种节点嵌入压缩方法,其中每个节点都用一个位向量而不是浮点数向量表示。在压缩方法中使用的参数可以与GNN一起训练。我们表明,与替代方案相比,提出的节点嵌入压缩方法的性能优于性能。
translated by 谷歌翻译
我们介绍了DeepGen,这是一个在网络范围内部署的系统,用于自动为宾果派客户创建赞助的搜索广告(ADS)。我们利用最新的自然语言生成(NLG)模型以抽象的方式从广告商的网页中生成流利的广告,并解决了实际问题,例如事实和推理速度。此外,我们的系统可实时创建自定义的广告,以响应用户的搜索查询,因此根据用户所需的内容突出显示了同一产品的不同方面。为了实现这一目标,我们的系统会提前生成各种较小广告的选择,并在查询时间选择最相关的广告选择,以将其缝合为完整的广告。我们通过培训可控的NLG模型来改善发电多样性,以生成相同网页的多个广告,突出显示不同的销售点。我们的系统设计通过首先运行具有不同目标训练的生成模型的合奏,然后使用多样性采样算法来选择各种各样的生成结果以进行在线选择,从而进一步改善了多样性。实验结果显示了我们提出的系统设计的有效性。我们的系统目前已在生产中部署,为Bing提供的全球广告提供$ {\ sim} 4 \%$。
translated by 谷歌翻译
实现通用语言情报是自然语言处理的长期目标,标准评估基准发挥基本和指导作用。我们认为,对于通用语言智能评估,基准本身需要全面和系统。为此,我们提出了Cuge,一种中文语言理解和生成评估基准,具有以下特征:(1)分层基准框架,其中数据集主要选择和组织语言能力 - 任务数据集层次结构。 (2)多级评分策略,其中基于分层框架提供了不同级别的模型性能。为了促进CUGE,我们提供了一个公共排行榜,可以自定义,以支持灵活的模型判断标准。代表性预先训练的语言模型的评估结果表明了对通用语言智能的完善的充足空间。 Cuge在Cuge.baai.ac.cn上公开提供。
translated by 谷歌翻译
在计算机视觉中起关键作用的人类运动预测通常需要过去的运动序列作为输入。但是,在实际应用中,完整而正确的过去运动顺序可能太贵了。在本文中,我们提出了一种新的方法,可以从更弱的条件(即单个图像)中预测未来的人类运动,并具有混合密度网络(MDN)建模。与大多数现有的深层人类运动预测方法相反,MDN的多模式性质可以产生各种未来的运动假设,这很好地补偿了由单个输入和人类运动不确定性汇总的强烈随机歧义。在设计损失函数时,我们进一步引入了基于能量的公式,以灵活地对MDN的可学习参数施加先前的损失,以保持运动相干性,并通过自定义能量功能来提高预测准确性。我们训练有素的模型将图像直接作为输入,并生成满足给定条件的多个合理动作。在两个标准基准数据集上进行的广泛实验证明了我们方法在预测多样性和准确性方面的有效性。
translated by 谷歌翻译
本文研究了分层聚类问题,其中目标是生产一种在数据集的变化尺度上表示集群的树形图。我们提出了用于设计并行分层凝聚聚类(HAC)算法的Parchain框架,并使用该框架,我们获得了全面连锁,平均联系和病房的联动标准的新颖平行算法。与最先前的并行HAC算法相比,这需要二次存储器,我们的新算法仅需要线性存储器,并且可以扩展到大数据集。 PARCHAIN基于我们最近邻的链算法的并行化,并使多个群集能够在每一轮上合并。我们介绍了两个关键优化,这对于效率至关重要:范围查询优化,减少查找群集的最近邻居所需的距离计算数,以及存储可能重复使用的先前计算的距离子集的缓存优化。通过实验,我们表明,我们的高度优化实现,使用48个核心,通过双向超线程实现5.8--110.1倍的加速,通过最先进的并行HAC算法,实现了13.75--54.23倍的自相对加速。与最先进的算法相比,我们的算法较少的空间少于237.3倍。我们的算法能够扩展到具有数百万点的数据集大小,现有算法无法处理该算法。
translated by 谷歌翻译
许多应用程序需要在许多系统性能指标上收集不同变量或测量的数据。我们将这些措施或变量广泛地术语。沿着每种测量的数据收集通常会引发成本,因此希望考虑建模中的措施成本。这是成本敏感学习领域的一个相当新的问题。已经尝试结合和选择措施来纳入成本。然而,现有的研究要么不严格执行预算限制,或者不是“大多数人”的成本效益。随着专注于分类问题,我们提出了一种计算有效的方法,可以通过探索解决空间的最多的“有希望”部分来找到给定预算下的近最佳模式。我们而不是输出单个模型,我们生成模型计划 - 通过模型成本和预期预测精度排序的模型列表。这可用于在给定预算下选择具有最佳预测准确性的模型,或在预算和预测准确性之间进行换算。在一些基准数据集上的实验表明,我们的方法对竞争方法有利地进行了比较。
translated by 谷歌翻译